2024-10-052024-10-05 随手记 2 分钟读完 (大约261个字) 0次访问

Weight Decay

$\theta_{t+1}=(1-\lambda)\theta_t-\alpha \nabla f_t(\theta_t)$

SGD 中权重衰减相当于加入一个 L2 regularization （对损失函数求导，然后化简）

为什么能避免模型过拟合问题？

过拟合模型的系数往往非常大，因为过拟合就是需要顾忌每一个点，最终形成的拟合函数波动很大，这意味着在某些小区间里的导数值非常大，也就是系数很大，通过正则化约束参数的范围使其不要太大，可以在一定程度上减少过拟合情况。

Ref

Weight Decay

Ryen Xiang

2024-10-05

2024-10-05